<a href="https://colab.research.google.com/github/Egaw0/ProgresBelajarku/blob/main/01_MACHINELEARNINGpipeline.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Aspek 1:** Introduction to Machine Learning Pipeline
Pada tahap ini, kita mendefinisikan dan menyusun komponen-komponen dari sebuah machine learning pipeline menggunakan package [scikit-learn](https://scikit-learn.org/stable/index.html). Komponen-komponen ini dapat mencakup preprocessor, transformer, estimator, dan lainnya.

In [1]:
# Aspek 1: Introduction to Machine Learning Pipeline
# Definisi dan komponen dari sebuah machine learning pipeline
from sklearn.pipeline import Pipeline
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import StandardScaler
from sklearn.feature_selection import SelectFromModel
from sklearn.ensemble import RandomForestClassifier
from sklearn.svm import SVC

# Aspek 2: Data Preprocessing
1. Handling missing data: menggunakan `SimpleImputer` dari scikit-learn untuk menangani data yang hilang dengan mengisi nilai rata-rata dari setiap fitur yang hilang.

2. Data cleaning and transformation: tidak melakukan langkah khusus pembersihan data dalam contoh ini karena dataset iris sudah bersih.

3. Feature engineering techniques: Dalam contoh ini, tidak melakukan teknik feature engineering khusus, tetapi ini dapat mencakup pembuatan fitur baru atau transformasi fitur yang ada.

4. Data normalization and standardization: menggunakan `StandardScaler` dari scikit-learn untuk melakukan normalisasi dan standarisasi data agar memiliki mean 0 dan standar deviasi 1.

In [2]:
# Aspek 2: Data Preprocessing
# Handling missing data
# Data cleaning and transformation
# Feature engineering techniques
# Data normalization and standardization
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

# Load iris dataset
iris = load_iris()
X, y = iris.data, iris.target

# Split data into training and testing sets
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Pipeline components
imputer = SimpleImputer(strategy='mean')
scaler = StandardScaler()

# Define pipeline
preprocessing_pipeline = Pipeline([
    ('imputer', imputer),
    ('scaler', scaler)
])

# Fit and transform training data
X_train_preprocessed = preprocessing_pipeline.fit_transform(X_train)


# Aspek 3: Model Selection and Training



1.   Overview of different machine learning algorithms: menggunakan `KNeighborsClassifier` sebagai model pembelajaran mesin untuk contoh ini, tetapi pipeline ini dapat dengan mudah diganti dengan model lain seperti RandomForestClassifier, SVC, dll.
2. Cross-validation techniques for model evaluation: menggunakan `GridSearchCV` dari scikit-learn untuk melakukan pencarian grid hyperparameter dengan validasi silang 5-fold.
3. Hyperparameter tuning: menentukan grid hyperparameter yang berbeda untuk KNeighborsClassifier dan mencari kombinasi terbaik dari hyperparameter menggunakan `GridSearchCV`.

In [3]:
# Aspek 3: Model Selection and Training
# Overview of different machine learning algorithms
# Cross-validation techniques for model evaluation
# Hyperparameter tuning
from sklearn.model_selection import GridSearchCV
from sklearn.neighbors import KNeighborsClassifier

# Pipeline with model selection
model_pipeline = Pipeline([
    ('preprocessing', preprocessing_pipeline),
    ('classifier', KNeighborsClassifier())
])

# Hyperparameter grid for KNeighborsClassifier
param_grid = {
    'classifier__n_neighbors': [3, 5, 7],
    'classifier__weights': ['uniform', 'distance']
}

# Grid search with cross-validation
grid_search = GridSearchCV(model_pipeline, param_grid, cv=5)
grid_search.fit(X_train, y_train)



# Aspek 4: Model Evaluation
1. Evaluation metrics for regression and classification tasks: Kami menggunakan classification_report dari scikit-learn untuk mendapatkan laporan klasifikasi yang mencakup akurasi, presisi, recall, F1-score, dll.

2. Bias-variance tradeoff: Pada tahap ini, kami tidak secara langsung mengukur bias dan varians model, tetapi kami dapat meninjaunya melalui hasil evaluasi model.

3. Overfitting and underfitting: Kami dapat melihat tanda-tanda overfitting atau underfitting dari hasil evaluasi model, seperti perbedaan yang signifikan antara kinerja pada data pelatihan dan data pengujian. Dalam contoh ini, kami menggunakan teknik pencarian grid hyperparameter dengan validasi silang untuk mengurangi risiko overfitting.

In [4]:
# Aspek 4: Model Evaluation
# Evaluation metrics for regression and classification tasks
# Bias-variance tradeoff
# Overfitting and underfitting
from sklearn.metrics import classification_report

# Predictions on test set
y_pred = grid_search.predict(X_test)

# Classification report
print(classification_report(y_test, y_pred))

# Best hyperparameters
print("Best hyperparameters:", grid_search.best_params_)

              precision    recall  f1-score   support

           0       1.00      1.00      1.00        10
           1       1.00      1.00      1.00         9
           2       1.00      1.00      1.00        11

    accuracy                           1.00        30
   macro avg       1.00      1.00      1.00        30
weighted avg       1.00      1.00      1.00        30

Best hyperparameters: {'classifier__n_neighbors': 3, 'classifier__weights': 'uniform'}
