## Pipeline (Iris 

Langkah yang pertama adalah menginstall beberapa package yang diperlukan, seperti scikit-learn, SQLAlchemy, pyodbc, psycopg2-binary, matplotlib, dan pandas

In [None]:
!pip install -U scikit-learn

In [None]:
!pip install matplotlib

In [None]:
!pip install pandas

In [None]:
!pip install psycopg2-binary

In [None]:
!pip install SQLAlchemy

In [None]:
!pip install pyodbc

Setelah berhasil menginstal package, import library yang akan digunakan

In [None]:
import orchest
import pandas as pd
from sqlalchemy import create_engine, text
import matplotlib.pyplot as plt
from sklearn import datasets
from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler

## Get Data

In [None]:
elephantEngine = create_engine('postgresql://bkxnlwpk:6-GAyqOz05aYOyPmdWmdHlnRQkEDqDb4@rosie.db.elephantsql.com/bkxnlwpk')
elephantQuery = text("SELECT * FROM iris")

with elephantEngine.connect() as elephantConn:
    elephantDf = pd.read_sql(elephantQuery, elephantConn)
    
selected_features = ['sepallength', 'sepalwidth', 'petallength', 'petalwidth']

df_data = elephantDf[selected_features]
df_target = elephantDf['class']

print("Outputting converted housing data...")
orchest.output((df_data, df_target), name="data")
print("Success!")

## Explore Data

Kemudian, ambil data dari step sebelumnya (get-data)

In [None]:
data = orchest.get_inputs()
data, target = data["data"]

Untuk mengetahui apakah proses mengambil data berhasil atau tidak, coba munculkan data menggunakan data.head()

In [None]:
data.head()

Kemudian, gunakan data.info() untuk mengetahui informasi apa saja yang ada pada data, misalnya tipe data

In [None]:
data.info()

In [None]:
data.describe()

Kemudian, lakukan ploting menggunakan matplotlib (plt) untuk setiap fitur untuk melihat bagaimana data tersebut didistribusikan

In [None]:
plt.style.use('ggplot')
data.hist(bins=64, figsize=(15,10), layout=(3, 3))
plt.show()

Setelah itu, lakukan penskalaan fitur. Dalam melakukan penskalaan fitur, dapat menggunakan PCA dari sklearn.

- PCA (Principal Component Analysis) adalah suatu teknik dalam analisis data yang digunakan untuk mengurangi dimensi variabel pada dataset yang memiliki banyak fitur (variabel)

In [None]:
X = data.values
X = StandardScaler().fit_transform(X)
y = target.values

Kemudian, jalankan PCA pada setiap fiturnya

In [None]:
pca = PCA(n_components=2)
components = pca.fit_transform(X)

## Preprocessing

Setelah berhasil menginstal package, import library yang akan digunakan

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import MinMaxScaler

Kemudian, ambil data dari step sebelumnya (get-data)

In [None]:
data = orchest.get_inputs()  # data = [(df_data, df_target)]
X, y = data["data"]

Lakukan penskalaan pada data untuk mengubah skala data dari satu rentang ke rentang lain yang lebih sesuai dengan kebutuhan model.
- penskalaan sering dilakukan pada fitur atau atribut yang memiliki skala atau satuan pengukuran yang berbeda-beda. Hal ini dapat mempengaruhi kinerja model karena beberapa algoritma machine learning sensitif terhadap skala data.

In [None]:
print("Scaling the data...")

scaler = MinMaxScaler()

X_train, X_test, y_train, y_test = train_test_split(X.values, y.values, test_size=0.20)
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

Langkah terakhir adalah menentukan output

In [None]:
orchest.output((X_train, y_train, X_test, y_test), name="training_data")

## Model (KNN)

In [None]:
from sklearn.metrics import mean_squared_error
from sklearn.neighbors import KNeighborsClassifier

ambil data dari step sebelumnya (pre-processing.ipynb)

In [None]:
data = orchest.get_inputs()
X_train, y_train, X_test, y_test = data["training_data"]

Setelah itu, bangun model menggunakan algoritma K-Nearest Neighbor yang terdapat pada scikit-learn (KNeighborsClassifier()) dan lakukan training model dengan data

In [None]:
print("Fitting the model...")

y_train = y_train.round().astype(int)
# Fit model.
model = KNeighborsClassifier()
model.fit(X_train, y_train.ravel())

Setelah itu, lakukan prediksi menggunakan model yang sudah dibangun

In [None]:
y_test_prediction = model.predict(X_test)
test_rmse = np.sqrt(mean_squared_error(y_test, y_test_prediction))

Kemudian, langkah terakhir adalah menyimpan hasil prediksi yang sudah dilakukan

In [None]:
orchest.output(test_rmse, name="knn-classifier-rmse")

## Model (Naive Bayes)

In [None]:
from sklearn.metrics import mean_squared_error
from sklearn.naive_bayes import GaussianNB

ambil data dari step sebelumnya (pre-processing)

In [None]:
data = orchest.get_inputs()
X_train, y_train, X_test, y_test = data["training_data"]

Setelah itu, bangun model menggunakan algoritma Naive Bayes yang terdapat pada scikit-learn (di sini menggunakan GaussianNB()) dan lakukan training model dengan data

In [None]:
print("Fitting the model...")

y_train = y_train.round().astype(int)
# Fit model.
model = GaussianNB()
model.fit(X_train, y_train.ravel())

Setelah itu, lakukan prediksi menggunakan model yang sudah dibangun

In [None]:
y_test_prediction = model.predict(X_test)
test_rmse = np.sqrt(mean_squared_error(y_test, y_test_prediction))

Kemudian, langkah terakhir adalah menyimpan hasil prediksi yang sudah dilakukan

In [None]:
# Save results
orchest.output(test_rmse, name="gaussian-nb-rmse")

## Collect Results

Untuk menampilkan hasil akhir, lakukan import library orchest terlebih dahulu. Kemudian ambil inputannya dan tampung pada variable data. Kemudian lakukan iterasi pada variabel data tersebut untuk mengambil name (nama algoritma) dan value nya (hasil) ketika name nya tidak sama dengan "unnamed".

In [None]:
data = orchest.get_inputs()

In [None]:
for name, value in data.items():
    if name != "unnamed":
        print(f"\n{name:30} {value}")