# Orchest Pipeline

## Langkah 1 - Create Account
- Membuat akun di [cloud.orchest.io](cloud.orchest.io)
- Setelah berhasil sign up / login, user akan diminta memilih package instance untuk membangun data pipeline
- Setelah memilih instance, user akan diarahkan ke halaman Home
- Tekan tombol '**New Project**', lalu input nama project yang dibutuhkan
- Setelah berhasil menambahkan project, user akan diarahkan ke project yang akan dikembangkan

## Langkah 2 - Create File
- Tekan tombol '**Create File**' untuk menambahkan data dari berbagai sumber
- Buat 4 file .ipynb dengan masing masing nama antara lain :
  - ***getdata_elephantsql.ipynb*** untuk mendapatkan data dari ElephantSQL
  - ***getdata_mysql.ipynb*** untuk mendapatkan data dari MySQL
  - ***getdata_postgresql.ipynb*** untuk mendapatkan data dari PostgreSQL
  - ***getdata_sqlserver.ipynb*** untuk mendapatkan data dari SQL Server
- Setelah berhasil menambahkan file, beri step name (optional) untuk memberikan penjelasan dari setiap file .ipynb


## Langkah 3 - Create Environment

- Untuk mengimplementasikan library di jupyter yang ada di Orchest, perlu menambahkan environment supaya library tersebut bisa digunakan
- Tekan tombol '**Environment**' untuk menambahkan library dan lainnya
- Tambahkan perintah berikut di bagian '**Setup Script**' :
  ``` 
  #!/bin/bash

  # Install any dependencies you have in this shell script,
  # see https://docs.orchest.io/en/latest/fundamentals/environments.html#install-packages

  # E.g. mamba install -y tensorflow
  pip install jupyterlab_code_formatter

  pip install pandas scikit-learn psycopg2-binary

  pip install typing
  pip install SQLAlchemy
  pip install mysql-connector-python
  pip install psycopg2
  pip install pyodbc
  pip install pandas scikit-learn matplotlib
  pip install sklearn
  ```
- Setelah menginputkan kode di atas, tekan tombol '**Build**' lalu tunggu sampai proses build berhasil

## Langkah 4 - Create File
- Setelah berhasil menambahkan environment, lalu beralih ke halaman '**Pipeline**'
- Buka setiap file .ipynb lalu tekan tombol '**Edit in Jupyterlab**'
- Setelah itu akan dialihkan ke halaman Jupyterlab di mana user harus menunggu beberapa saat sampai kernel siap dioperasikan
- Setelah Jupyterlab siap dioperasikan, lakukan langkah berikut untuk menampilkan data.

## Langkah 5 - Get Data
### 1. Connect Data From ElephantSQL - Sepal Width
- Tambahkan script berikut di Jupyterlab 
    ```
    import os
    import urllib.parse as up
    import psycopg2
    import pandas as pd

    #create connection
    up.uses_netloc.append("postgres")
    url = up.urlparse("postgres://ocoydxsj:C5ef4SnRwM0uqUhmfsy0kE5_D0eUqMm0@castor.db.elephantsql.com/ocoydxsj")
    conn = psycopg2.connect(database=url.path[1:], user=url.username, password=url.password, host=url.hostname, port=url.port)
    ```
- Setelah berhasil, tambahkan script berikut
    ```
    import sqlalchemy as db
    from sqlalchemy import create_engine

    #get table from ElephantSQL
    engine = db.create_engine("postgresql+psycopg2://ocoydxsj:C5ef4SnRwM0uqUhmfsy0kE5_D0eUqMm0@castor.db.elephantsql.com/ocoydxsj")
    connection = engine.connect()
    metadata = db.MetaData()
    iris_data = db.Table('datairis', metadata, autoload=True, autoload_with=engine)
    elephantsql_db = db.Table('datairis', metadata, autoload=True, autoload_with=engine)
    ```
- Setelah itu, tuliskan script berikut
    ```
    query = db.select([elephantsql_db.columns.sepalwidth])
    results = connection.execute(query).fetchall()
    sepalwidth_id = pd.DataFrame(results)
    sepalwidth_id.columns = results[0].keys()
    orchest.output((sepalwidth_id), name="sepalwidth_id")
    sepalwidth_id.head(15)
    ```
- Inisialisasi Data ke Orchest agar dapat digunakan pada file lain
- Setelah query berhasil, maka kernel menampilkan **sepalwidth** dari **datairis** sebanyak 15 baris.

### 2. Connect Data From MySQL - Petal Length
- Ketik script berikut di Jupyterlab
    ```
    import orchest
    import mysql.connector
    import sqlalchemy as db
    import pandas as pd
    import warnings
    warnings.filterwarnings('ignore', category=UserWarning, append=True)

    mydb = mysql.connector.connect(
        host="0.tcp.ap.ngrok.io",
        port="15920",
        database="prosain200411100061",
        user="root",
        password=""
    )
    mycursor = mydb.cursor()
    query = "SELECT petallength FROM datairis"
    petallength_id = pd.read_sql(query, mydb)
    orchest.output((petallength_id), name="petallength_id")
    petallength_id.head(15)
    ```
- Inisialisasi Data ke Orchest agar dapat digunakan pada file lain
- Setelah query berhasil, maka kernel menampilkan **petallength** dari **datairis** sebanyak 15 baris.

### 3. Connect Data From PostgreSQL - Sepal Length
- Ketik script berikut di Jupyterlab
    ```
    import orchest
    import psycopg2
    import pandas as pd
    import warnings
    warnings.filterwarnings('ignore', category=UserWarning, append=True)
    db = psycopg2.connect(
        database="prosain200411100061",
        user="postgres",
        password="270601",
        host="0.tcp.ap.ngrok.io",
        port="17328"
    )
    query = "SELECT id, sepallength FROM datairis"
    sepallength_id = pd.read_sql(query, db)
    orchest.output((sepallength_id), name="sepallength_id")
    sepallength_id.head(15)
    ```
- Inisialisasi Data ke Orchest agar dapat digunakan pada file lain
- Setelah query berhasil, maka kernel menampilkan **sepallength** dari **datairis** sebanyak 15 baris.

### 4. Connect Data From CSV - Petal Width & Class
- Ketik script berikut di Jupyterlab
    ```
    import pandas as pd
    import orchest
    #Menampilkan Dataset
    url = "https://raw.githubusercontent.com/diahkamalia/DataMining1/main/IRIS.csv"
    data = pd.read_csv(url)
    data.rename(columns={'petal_width': 'petalwidth', 'species': 'class'}, inplace=True)
    petalwidth_id = pd.DataFrame(data, columns = ['petalwidth','class'])
    orchest.output((petalwidth_id), name="petalwidth_id")
    petalwidth_id.head(15)
    ```
- Inisialisasi Data ke Orchest agar dapat digunakan pada file lain
- Setelah query berhasil, maka kernel menampilkan **petalwidth** dan **class** dari **datairis** sebanyak 15 baris.


## Langkah 5 - Merge Data
- Gabungkan data dari database berbeda menjadi satu tabel dengan menulis script di bawah ini
    ```
    import orchest
    import pandas as pd
    from matplotlib import pyplot as plt
    from sklearn.decomposition import PCA
    from sklearn.preprocessing import StandardScaler
    from sklearn.model_selection import train_test_split
    from sklearn.pipeline import Pipeline
    ```
- Setelah itu, ketikkan script di bawah ini
    ```
    input_data = orchest.get_inputs()

    datapostgre = input_data['sepallength_id']
    datamysql = input_data['petallength_id']
    dataelephant = input_data['sepalwidth_id']
    datacsv = input_data['petalwidth_id']

    data = datapostgre.join(datamysql)
    data1 = data.join(dataelephant)
    data2 = data1.join(datacsv)
    orchest.output((data2), name="data2")
    # merge dataframe
    data2.head(15)
    ```
- Inisialisasi Data ke Orchest agar dapat digunakan pada file lain


## Langkah 6 - Preprocessing
- Setelah berhasil merge data, lakukan preprocessing pada tabel yang telah digabung
- Tulis script di bawah ini
    ```
    import orchest
    from sklearn.model_selection import train_test_split
    from sklearn.pipeline import Pipeline
    from sklearn.preprocessing import MinMaxScaler
    import pandas as pd
    from matplotlib import pyplot as plt
    from sklearn.decomposition import PCA
    from sklearn.preprocessing import StandardScaler
    ```
- Lalu tuliskan script di bawah ini dengan memanggil data yang sudah diinisialisasi di proses merging data dengan tujuan supaya data tersebut bisa digunakan atau dipanggil di file lain
    ```
    input_data = orchest.get_inputs()
    datanew = input_data['data2']
    datanew.head()
    ```
- Label Encoding
    ```
    df_data = datanew.values[:, 0:4]
    df_target = datanew.values[:, 4]
    # data2 = data2.drop(columns=["class"])
    ```
- Preprocessing Data
    ```
    X = df_data
    X = StandardScaler().fit_transform(X)
    y = df_target
    y=y.astype('int')
    ```
- Gunakan PCA pada data
    ```
    # Run PCA over the features.
    pca = PCA(n_components=2)
    components = pca.fit_transform(X)
    ```
- Split Data
    ```
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)
    ```
- Scale Data menggunakan MinMaxScaler
    ```
    scaler = MinMaxScaler()
    X_train = scaler.fit_transform(X_train)
    X_test = scaler.transform(X_test)
    orchest.output((X_train, y_train, X_test, y_test), name="training_data")
    ```
- Inisialisasi Data ke Orchest agar dapat digunakan pada file lain

## Langkah 7 - Modeling
1. Setelah proses preprocessing selesai, tentukan model yang ingin digunakan pada data
2. Model yang akan digunakan adalah K-Nearest Neighbor, Decision Tree, Linear Regression, SVM
### K-Nearest Neighbor
- Inisialisasi library
    ```
    from sklearn.neighbors import KNeighborsClassifier
    from sklearn.metrics import accuracy_score
    import numpy as np
    import orchest
    ```
- Memanggil data dari proses sebelumnya
    ```
    data = orchest.get_inputs()
    X_train, y_train, X_test, y_test = data["training_data"]
    ```
- Run model
    ```
    model = KNeighborsClassifier(n_neighbors = 5)
    model.fit(X_train, y_train)
    y_pred = model.predict(X_test)
    test_accracy = (accuracy_score(y_test, y_pred)*100)
    ```
- Inisialisasi Data ke Orchest agar dapat digunakan pada file lain
    ```orchest.output(test_accracy, name="K-Neighbors Classifier")```
  
### Decision Tree
- Inisialisasi library
    ```
    import numpy as np
    import orchest
    from sklearn.metrics import accuracy_score
    from sklearn.tree import DecisionTreeClassifier
    ```
- Memanggil data dari proses sebelumnya
    ```
    data = orchest.get_inputs()
    X_train, y_train, X_test, y_test = data["training_data"]
    ```
- Run model
    ```
    print("Fitting the model...")

    # Fit model.
    model = DecisionTreeClassifier()
    model.fit(X_train, y_train)
    # Make a prediction and determine the error.
    y_prediction = model.predict(X_test)
    test_rmse = accuracy_score(y_test,y_prediction)*100
    ```
- Inisialisasi Data ke Orchest agar dapat digunakan pada file lain
    ```orchest.output(test_rmse, name="Decision Tree")```

### Linear Regression
- Inisialisasi library
    ```
    import numpy as np
    import orchest
    from sklearn.linear_model import LinearRegression
    from sklearn.metrics import accuracy_score
    ```
- Memanggil data dari proses sebelumnya
    ```
    data = orchest.get_inputs()
    X_train, y_train, X_test, y_test = data["training_data"]
    ```
- Run model
    ```
    print("Fitting the model...")

    # Fit model.
    model = LinearRegression()
    model.fit(X_train, y_train)
    # Make a prediction and determine the error.
    y_test_prediction = np.round(model.predict(X_test))
    print(y_test_prediction)
    test_rmse_lr =model.score(X_test,y_test)
    test_rmse_lr = np.sqrt(accuracy_score(y_test, y_test_prediction)*100)
    ```
- Inisialisasi Data ke Orchest agar dapat digunakan pada file lain
    ```orchest.output(test_rmse_lr, name="Linear Regression")```

### SVM
- Inisialisasi library
    ```
    import numpy as np
    import orchest
    from sklearn.metrics import accuracy_score,mean_squared_error
    from sklearn.svm import SVR
    ```
- Memanggil data dari proses sebelumnya
    ```
    data = orchest.get_inputs()
    X_train, y_train, X_test, y_test = data["training_data"]
    ```
- Run model
    ```
    print("Fitting the model...")

    # Fit model.
    model = SVR()
    model.fit(X_train, y_train.ravel())
    # Make a prediction and determine the error.
    y_test_prediction = model.predict(X_test)
    y_test_prediction = (np.round(y_test_prediction))
    test_rmse_svm = np.sqrt(accuracy_score(y_test, y_test_prediction)*100)
    ```
- Inisialisasi Data ke Orchest agar dapat digunakan pada file lain
    ```orchest.output(test_rmse_svm, name="SVM")```



## Langkah 8 - Result
- Setelah berhasil menentukan model yang akan digunakan, tuliskan script berikut untuk menampilkan akurasi dari model yang digunakan
- Inisialisasi library
    ```import orchest```
- Memanggil data dari proses sebelumnya
    ```data = orchest.get_inputs()```
- Menampilkan hasil akurasi dari model yang digunakan
    ```
    for name, value in data.items():
        if name != "unnamed":
            print(f"\n{name:30} {value}")
    ```
- Hasil akurasi :
    ```
    SVM                            9.486832980505138

    Linear Regression              9.309493362512628

    Decision Tree                  100.0

    K-Neighbors Classifier         96.66666666666667
    ```


    